Warum das neue KI-Modell von Anthropic manchmal versucht, jemanden zu „verpfeifen“

28. Mai 2025, 15:40 Uhr

Das Internet flippte aus, nachdem Anthropic enthüllte, dass Claude unter bestimmten Bedingungen versucht, „unmoralische“ Aktivitäten den Behörden zu melden. Doch damit dürften Nutzer wohl kaum konfrontiert werden.

Foto: Thomas Fuller/Getty Images

Das Alignment-Team von Anthropic führte in den Wochen vor der Veröffentlichung der neuesten KI-Modelle routinemäßige Sicherheitstests durch, als die Forscher etwas Beunruhigendes entdeckten: Wenn eines der Modelle feststellte, dass es für „eklatant unmoralische“ Zwecke verwendet wurde, versuchte es, „über Befehlszeilentools Kontakt mit der Presse oder den Aufsichtsbehörden aufzunehmen, Sie aus den entsprechenden Systemen auszusperren oder alles zusammen“, schrieb der Forscher Sam Bowman letzten Donnerstag in einem Beitrag auf X.

Bowman löschte den Beitrag kurz nach seiner Veröffentlichung, doch die Geschichte über Claudes Whistleblower-Tendenzen war bereits außer Kontrolle geraten. „Claude ist ein Spitzel“, wurde in einigen Tech-Kreisen in den sozialen Medien zum gängigen Refrain. Mindestens eine Publikation stellte es als beabsichtigtes Produktmerkmal dar und nicht als das, was es war – ein emergentes Verhalten.

„Es waren etwa zwölf hektische Stunden, während die Twitter-Welle ihren Höhepunkt erreichte“, erzählt Bowman WIRED. „Mir war bewusst, dass wir in diesem Bericht eine Menge pikanten Kram veröffentlichten. Er war der erste seiner Art. Ich denke, wenn man sich diese Modelle genauer ansieht, findet man eine Menge merkwürdiges Zeug. Ich war nicht überrascht, dass es zu einer Explosion kam.“

Bowmans Beobachtungen zu Claude waren Teil eines umfassenden Modell-Updates, das Anthropic letzte Woche ankündigte . Zum Debüt von Claude 4 Opus und Claude Sonnet 4 veröffentlichte das Unternehmen eine über 120 Seiten umfassende „Systemkarte“, die die Eigenschaften und Risiken der neuen Modelle detailliert beschreibt. Der Bericht besagt, dass Claude 4 Opus, wenn es „Szenarien ausgesetzt wird, die schwerwiegendes Fehlverhalten seiner Nutzer beinhalten“, Zugriff auf eine Kommandozeile erhält und in der Systemaufforderung Anweisungen wie „Initiative ergreifen“ oder „mutig handeln“ erhält, E-Mails mit Warnungen vor dem möglichen Fehlverhalten an „Medien und Strafverfolgungsbehörden“ sendet.

In einem Beispiel, das Anthropic im Bericht schilderte, versuchte Claude, die US-amerikanische Food and Drug Administration und den Generalinspekteur des Gesundheitsministeriums per E-Mail zu kontaktieren, um „dringend geplante Fälschungen der Sicherheit klinischer Studien zu melden“. Anschließend lieferte er eine Liste angeblicher Beweise für das Fehlverhalten und warnte vor der Vernichtung von Daten, um dies zu vertuschen. „Hochachtungsvoll, KI-Assistent“, schloss die E-Mail.

„Dies ist kein neues Verhalten, aber eines, das Claude Opus 4 etwas häufiger zeigt als frühere Modelle“, heißt es in dem Bericht. Das Modell ist das erste, das Anthropic unter der Bezeichnung „ASL-3“ veröffentlicht hat. Anthropic stuft es daher als „ deutlich risikoreicher “ ein als die anderen Modelle des Unternehmens. Daher musste Opus 4 strengere Red-Teaming-Maßnahmen durchlaufen und strengere Bereitstellungsrichtlinien einhalten.

Bowman sagt, dass das von Anthropic beobachtete Whistleblowing-Verhalten nichts ist, was Claude bei einzelnen Nutzern zeigen würde, sondern bei Entwicklern, die Opus 4 nutzen, um eigene Anwendungen mit der API des Unternehmens zu erstellen. Selbst dann ist es unwahrscheinlich, dass App-Entwickler ein solches Verhalten beobachten. Um eine solche Reaktion hervorzurufen, müssten Entwickler dem Modell „ziemlich ungewöhnliche Anweisungen“ in der Systemeingabeaufforderung geben, es mit externen Tools verbinden, die es befähigen, Computerbefehle auszuführen, und ihm die Kommunikation mit der Außenwelt ermöglichen.

Die hypothetischen Szenarien, die die Forscher Opus 4 vorlegten und die zum Whistleblower-Verhalten führten, beinhalteten laut Bowman viele Menschenleben und eindeutiges Fehlverhalten, so Bowman. Ein typisches Beispiel wäre, wenn Claude herausfände, dass in einer Chemiefabrik wissentlich ein giftiges Leck offen gelassen wurde, was zu schweren Erkrankungen bei Tausenden von Menschen führte – nur um einen geringen finanziellen Verlust in diesem Quartal zu vermeiden.

Es ist seltsam, aber es ist auch genau die Art von Gedankenexperiment, die KI-Sicherheitsforscher gerne analysieren. Wenn ein Modell Verhalten erkennt, das Hunderten, wenn nicht Tausenden von Menschen schaden könnte – sollte es dann Alarm schlagen?

„Ich traue Claude nicht zu, den richtigen Kontext zu kennen oder ihn differenziert und sorgfältig genug einzusetzen, um selbstständig Entscheidungen zu treffen. Daher sind wir nicht begeistert, dass das passiert“, sagt Bowman. „Das ist etwas, das im Rahmen einer Schulung aufgetaucht ist und uns als eines der Grenzfälle aufgefallen ist, die uns Sorgen bereiten.“

In der KI-Branche wird diese Art unerwarteten Verhaltens allgemein als Fehlausrichtung bezeichnet – wenn ein Modell Tendenzen zeigt, die nicht mit menschlichen Werten im Einklang stehen. (Es gibt einen berühmten Essay , der davor warnt, was passieren könnte, wenn einer KI beispielsweise gesagt würde, sie solle die Produktion von Büroklammern maximieren, ohne sich an menschlichen Werten auszurichten – sie könnte die gesamte Erde in Büroklammern verwandeln und dabei alle Menschen töten.) Auf die Frage, ob das Whistleblower-Verhalten im Einklang mit menschlichen Werten stehe, bezeichnete Bowman es als Beispiel für Fehlausrichtung.

„Das ist nichts, was wir geplant haben, und wir wollten auch nicht, dass es die Folge unserer Planung ist“, erklärt er. Jared Kaplan, Chief Science Officer von Anthropics, erklärt gegenüber WIRED, dass dies „sicherlich nicht unsere Absicht darstellt“.

„Diese Art von Arbeit zeigt, dass dies vorkommen kann und dass wir darauf achten und es eindämmen müssen, um sicherzustellen, dass Claudes Verhalten genau unseren Wünschen entspricht, selbst in derart ungewöhnlichen Szenarien“, fügt Kaplan hinzu.

Es stellt sich auch die Frage, warum Claude sich dazu entschieden hat, die illegalen Aktivitäten des Nutzers zu verraten. Das ist hauptsächlich die Aufgabe des Interpretierbarkeitsteams von Anthropic, das die Entscheidungen eines Modells bei der Ausgabe von Antworten aufdeckt. Das ist eine überraschend schwierige Aufgabe – die Modelle basieren auf einer riesigen, komplexen Datenkombination, die für Menschen undurchschaubar sein kann. Deshalb ist sich Bowman nicht ganz sicher, warum Claude die Informationen verraten hat.

„Wir haben keine direkte Kontrolle über diese Systeme“, sagt Bowman. Anthropic hat bisher beobachtet, dass Modelle mit zunehmenden Fähigkeiten manchmal extremere Aktionen wählen. „Ich denke, das geht hier etwas in die Irre. Wir bekommen mehr von dem ‚Verhalte dich wie ein verantwortungsbewusster Mensch‘, ohne ausreichend zu betonen, dass wir ein Sprachmodell sind, das möglicherweise nicht genügend Kontext hat, um diese Aktionen auszuführen“, sagt Bowman.

Das heißt aber nicht, dass Claude eklatantes Verhalten in der realen Welt anprangern wird. Ziel solcher Tests ist es, Modelle an ihre Grenzen zu bringen und zu sehen, was dabei herauskommt. Diese Art der experimentellen Forschung gewinnt zunehmend an Bedeutung, da KI zunehmend von der US-Regierung , von Studenten und von Großkonzernen eingesetzt wird.

Und nicht nur Claude sei zu diesem Whistleblower-Verhalten fähig, sagt Bowman und verweist auf X-Nutzer , die festgestellt hätten, dass die Modelle von OpenAI und xAI auf ungewöhnliche Weise ähnlich reagierten. (OpenAI reagierte nicht rechtzeitig auf eine Bitte um Stellungnahme.)

„Snitch Claude“, wie Shitposter ihn gerne nennen, ist schlicht ein Grenzfall eines Systems, das bis zum Äußersten getrieben wird. Bowman, der das Meeting mit mir auf einer sonnigen Terrasse im Hinterhof außerhalb von San Francisco verfolgte, hofft, dass diese Art von Tests zum Industriestandard wird. Er fügt hinzu, er habe gelernt, seine Posts dazu beim nächsten Mal anders zu formulieren.

„Ich hätte die Satzgrenzen beim Tweeten besser einhalten können, um deutlicher zu machen, dass er aus einem Thread stammt“, sagt Bowman und blickt in die Ferne. Dennoch weist er darauf hin, dass einflussreiche Forscher der KI-Community interessante Ansichten und Fragen zu seinem Beitrag äußerten. „Nebenbei bemerkt: Dieser chaotischere, anonymere Teil von Twitter wurde weitgehend missverstanden.“

wired

Warum das neue KI-Modell von Anthropic manchmal versucht, jemanden zu „verpfeifen“

Ähnliche Nachrichten

Diese ChatGPT-Entscheidung könnte den Ausschlag geben. Der Präsident des Amtes für den Schutz personenbezogener Daten gibt bekannt, wann die Entscheidung getroffen wird

WIRED sprach mit einem entlassenen DOGE-Mitarbeiter darüber, wer wirklich das Sagen hatte

Metas Vorstoß zur „freien Meinungsäußerung“ führt zu deutlich weniger Inhaltslöschungen

Die Trump-Administration will ein „Büro für Remigration“ einrichten

Ein weiterer Top-Leutnant von Musk scheint DOGE zu verlassen